在当今的社会中,算法建议和决策已经变得普遍存在。其中许多和其他数据驱动的政策,特别是在公共政策领域,基于已知的确定性规则,以确保其透明度和可解释性。例如,算法预审风险评估,即作为我们的激励申请,提供相对简单,确定性的分类分数和建议,以帮助法官发出释放决策。我们如何根据现有的确定性政策使用数据,并学习新的和更好的策略?不幸的是,策略学习的先前方法不适用,因为它们需要现有的政策是随机而非确定性的。我们开发了一种强大的优化方法,部分地识别策略的预期效用,然后通过最小化最坏情况后悔找到最佳策略。由此产生的政策是保守的,但具有统计安全保障,允许政策制定者限制产生比现有政策更糟糕的结果的可能性。我们将这种方法扩展到人类借助算法建议作出决策的共同和重要的环境。最后,我们将提议的方法应用于预审风险评估工具的独特现场实验。我们推出了新的分类和推荐规则,以保留现有仪器的透明度和可解释性,同时可能以较低的成本导致更好的整体结果。
translated by 谷歌翻译
We present NusaCrowd, a collaborative initiative to collect and unite existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have has brought together 137 datasets and 117 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their effectiveness has been demonstrated in multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and its local languages. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and its local languages. Our work is intended to help advance natural language processing research in under-represented languages.
translated by 谷歌翻译
There has been great recent advancement in human-computer chat. However, proper evaluation currently requires human judgements that produce notoriously high-variance metrics due to their inherent subjectivity. Furthermore, there is little standardization in the methods and labels used for evaluation, with an overall lack of work to compare and assess the validity of various evaluation approaches. As a consequence, existing evaluation results likely leave an incomplete picture of the strengths and weaknesses of open-domain chatbots. We aim towards a dimensional evaluation of human-computer chat that can reliably measure several distinct aspects of chat quality. To this end, we present our novel human evaluation method that quantifies the rate of several quality-related chatbot behaviors. Our results demonstrate our method to be more suitable for dimensional chat evaluation than alternative likert-style or comparative methods. We then use our validated method and existing methods to evaluate four open-domain chat models from the recent literature.
translated by 谷歌翻译
Artificial intelligence methods including deep neural networks (DNN) can provide rapid molecular classification of tumors from routine histology with accuracy that matches or exceeds human pathologists. Discerning how neural networks make their predictions remains a significant challenge, but explainability tools help provide insights into what models have learned when corresponding histologic features are poorly defined. Here, we present a method for improving explainability of DNN models using synthetic histology generated by a conditional generative adversarial network (cGAN). We show that cGANs generate high-quality synthetic histology images that can be leveraged for explaining DNN models trained to classify molecularly-subtyped tumors, exposing histologic features associated with molecular state. Fine-tuning synthetic histology through class and layer blending illustrates nuanced morphologic differences between tumor subtypes. Finally, we demonstrate the use of synthetic histology for augmenting pathologist-in-training education, showing that these intuitive visualizations can reinforce and improve understanding of histologic manifestations of tumor biology.
translated by 谷歌翻译
This paper presents a Neuromorphic Starter Kit, which has been designed to help a variety of research groups perform research, exploration and real-world demonstrations of brain-based, neuromorphic processors and hardware environments. A prototype kit has been built and tested. We explain the motivation behind the kit, its design and composition, and a prototype physical demonstration.
translated by 谷歌翻译
肾细胞癌(RCC)是一种常见的癌症,随着临床行为的变化。懒惰的RCC通常是低级的,没有坏死,可以在没有治疗的情况下监测。激进的RCC通常是高级的,如果未及时检测和治疗,可能会导致转移和死亡。虽然大多数肾脏癌在CT扫描中都检测到,但分级是基于侵入性活检或手术的组织学。确定对CT图像的侵略性在临床上很重要,因为它促进了风险分层和治疗计划。这项研究旨在使用机器学习方法来识别与病理学特征相关的放射学特征,以促进评估CT图像而不是组织学上的癌症侵略性。本文提出了一种新型的自动化方法,即按区域(Corrfabr)相关的特征聚集,用于通过利用放射学和相应的不对齐病理学图像之间的相关性来对透明细胞RCC进行分类。 CORRFABR由三个主要步骤组成:(1)特征聚集,其中从放射学和病理图像中提取区域级特征,(2)融合,放射学特征与病理特征相关的放射学特征在区域级别上学习,并且(3)在其中预测的地方学到的相关特征用于仅使用CT作为输入来区分侵略性和顽固的透明细胞RCC。因此,在训练过程中,Corrfabr从放射学和病理学图像中学习,但是在没有病理图像的情况下,Corrfabr将使用CORFABR将侵略性与顽固的透明细胞RCC区分开。 Corrfabr仅比放射学特征改善了分类性能,二进制分类F1分数从0.68(0.04)增加到0.73(0.03)。这证明了将病理疾病特征纳入CT图像上透明细胞RCC侵袭性的分类的潜力。
translated by 谷歌翻译
自动图像分析中的不确定性定量在许多应用中高度满足。通常,分类或细分中的机器学习模型仅用于提供二进制答案。但是,量化模型的不确定性可能在主动学习或机器人类互动中起关键作用。当使用基于深度学习的模型时,不确定性量化尤其困难,这是许多成像应用中最新的。当前的不确定性量化方法在高维实际问题中不能很好地扩展。可扩展的解决方案通常依赖于具有不同随机种子的相同模型的推理或训练集合过程中的经典技术,以获得后验分布。在本文中,我们表明这些方法无法近似分类概率。相反,我们提出了一个可扩展和直观的框架来校准深度学习模型的合奏,以产生近似分类概率的不确定性定量测量。在看不见的测试数据上,我们证明了与标准方法进行比较时的校准,灵敏度(三种情况中的两种)以及精度。我们进一步激发了我们在积极学习中的方法的用法,创建了伪标签,以从未标记的图像和人机合作中学习。
translated by 谷歌翻译
通用数据模型解决了标准化电子健康记录(EHR)数据的许多挑战,但无法将其集成深度表型所需的资源。开放的生物学和生物医学本体论(OBO)铸造本体论提供了可用于生物学知识的语义计算表示,并能够整合多种生物医学数据。但是,将EHR数据映射到OBO Foundry本体论需要大量的手动策展和域专业知识。我们介绍了一个框架,用于将观察性医学成果合作伙伴关系(OMOP)标准词汇介绍给OBO铸造本体。使用此框架,我们制作了92,367条条件,8,615种药物成分和10,673个测量结果的映射。域专家验证了映射准确性,并且在24家医院进行检查时,映射覆盖了99%的条件和药物成分和68%的测量结果。最后,我们证明OMOP2OBO映射可以帮助系统地识别可能受益于基因检测的未诊断罕见病患者。
translated by 谷歌翻译
我们介绍了一种考虑复杂的环境条件,在极地地区介绍了一种在极地地区长距离海上路线计划的方法。该方法允许构建优化的路线,描述了该过程的三个主要阶段:使用不均匀网格对环境条件进行离散建模,网格最佳路径的构建以及路径平滑。为了说明不同的车辆性能,我们构建了一系列数据驱动的功能,这些功能可以应用于环境网格,以确定给定容器和网格单元的速度限制和燃料要求,以图形和地理空间表示这些数量。在描述我们的结果时,我们展示了一个示例用途,用于Polar Research船RRS David Attenborough爵士(SDA)的路线规划,核算冰的性能特征,并验证韦德尔海地区的时空路线构建,南极洲。我们通过证明路线的变化取决于季节性海冰可变性,所使用的路线规划目标函数的差异以及其他环境条件(如电流)的存在来证明这种路线构建方法的多功能性。为了证明我们的方法的普遍性,我们在北极海洋和波罗的海中介绍了例子。本手稿中概述的技术是通用的,因此可以应用于具有不同特征的血管。我们的方法不仅可以拥有一个船只计划程序,而且我们概述了该工作流程如何适用于更广泛的社区,例如商业和乘客运输。
translated by 谷歌翻译
该技术报告描述了surreyaudioteam22s Dcase 2022 ASC任务1,低复杂性声学场景分类(ASC)。该任务有两个规则,(a)ASC框架应具有最大128K参数,并且(b)每个推理最多应有3000万次多功能操作(MAC)。在本报告中,我们为ASC提供了遵循该任务规则的ASC的低复杂系统。
translated by 谷歌翻译